Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
节点注入对图神经网络(GNN)的攻击已作为一种实际的攻击场景而引起了人们的注意,攻击者会注入恶意节点,而不是修改节点功能或边缘以降低GNN的性能。尽管节点注射攻击最初取得了成功,但我们发现,通过防御方法,可以通过防御方法和限制其在实践中限制其攻击性能,从而很容易将注射的节点与原始正常节点区分开。为了解决上述问题,我们致力于伪装节点注入攻击,即伪装注入恶意节点(结构/属性)是对防御方法似乎合理/不察觉的普通淋巴结。图形数据的非欧亚人性质和缺乏人类的先验性质给伪装上伪装的形式化,实施和评估带来了巨大挑战。在本文中,我们首先提出并制定了从注射节点围绕的自我网络的忠诚度和多样性中注入的节点的伪装。然后,我们为节点注射攻击(即Cana)设计了一个对抗性伪装框架,以改善伪装,同时确保攻击性能。进一步设计了几种用于图形伪装的新型指标,以进行全面的评估。实验结果表明,当将现有的节点注入攻击方法与我们提出的CANA框架配置时,针对防御方法的攻击性能以及节点伪装将显着改善。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
对人类对象互动(HOI)的全面理解不仅需要检测一小部分预定义的HOI概念(或类别),还需要其他合理的HOI概念,而当前的方法通常无法探索大部分未知的HOI概念(即,即动词和对象的未知但合理的组合)。在本文中,1)我们介绍了一项新颖而挑战性的任务,以进行全面的HOI理解,称为HOI概念发现; 2)我们为HOI概念发现设计了一个自我复合学习框架(或SCL)。具体来说,我们在培训期间保持了在线更新的概念置信矩阵:1)根据自我训练的概念置信矩阵,我们为所有复合HOI实例分配了伪标记; 2)我们使用所有复合HOI实例的预测更新概念置信矩阵。因此,提出的方法可以对已知和未知的HOI概念进行学习。我们对几个流行的HOI数据集进行了广泛的实验,以证明提出的HOI概念发现方法,对象负担能力识别和HOI检测的有效性。例如,拟议的自我复合学习框架可显着提高1)HOI概念发现的性能,分别在HICO-DET上和V-Coco的3%以上。 2)在MS-Coco和Hico-Det上,对象负担能力识别超过9%的地图; 3)相对较少30%和20%。代码可在https://github.com/zhihou7/hoi-cl上公开获取。
translated by 谷歌翻译
生成预训练的语言模型(PLM)的规模不断增加,大大增加了对模型压缩的需求。尽管有多种压缩BERT或其变体的方法,但很少有尝试压缩生成PLM的尝试,而潜在的难度仍然不清楚。在本文中,我们通过量化压缩生成PLM。我们发现,由于\ textit {均质单词嵌入}的生成任务,先前的量化方法失败了,由减小的容量引起,\ textit {权重分布}。相应地,我们提出了一个令牌级的对比度蒸馏,以学习可区分的单词嵌入,并通过模块的动态缩放来使量化器适应不同的模块。各种任务的经验结果表明,我们所提出的方法的表现优于生成PLM的最新压缩方法。通过与完整模型的可比性能,我们分别在GPT-2和BART上达到14.4倍和13.4倍的压缩率。
translated by 谷歌翻译
随着物联网设备的扩散,研究人员在机器学习的帮助下开发了各种IOT设备识别方法。尽管如此,这些识别方法的安全性主要取决于收集的培训数据。在这项研究中,我们提出了一种名为IOTGan的新型攻击策略来操纵IoT设备的流量,使得它可以避免基于机器学习的IOT设备识别。在IOTGAN的发展中,我们有两个主要的技术挑战:(i)如何在黑匣子环境中获得歧视模型,并如何通过操纵模型将扰动添加到物联网交通中,从而逃避识别不影响物联网设备的功能。为了解决这些挑战,基于神经网络的替代模型用于将目标模型放在黑盒设置中,它作为IOTGAN中的歧视模型。培训操纵模型,以将对抗性扰动添加到物联网设备的流量中以逃避替代模型。实验结果表明,IOTAN可以成功实现攻击目标。我们还开发了高效的对策,以保护基于机器的机器学习的IOT设备识别由IOTGAN破坏。
translated by 谷歌翻译
数百万患者患有世界各地的罕见疾病。然而,罕见疾病的样品远小于常见疾病。此外,由于医疗数据的敏感性,医院通常不愿意分享患者信息,以引用隐私问题的数据融合。这些挑战使传统的AI模型难以提取疾病预测目的的稀有疾病特征。在本文中,我们通过提出基于联邦荟萃学习的稀有疾病预测的新方法来克服这种限制。为了提高稀有疾病的预测准确性,我们设计了一种基于关注的元学习(ATML)方法,根据基础学习者的测量培训效果,动态调整对不同任务的关注。另外,提出了一种基于动态权重的融合策略,以进一步提高联合学习的准确性,这基于每个本地模型的准确性动态选择客户端。实验表明,随着五次镜头,我们的方法以准确性和速度为原始联合元学习算法进行了出差。与每个医院的本地模型相比,所提出的模型的平均预测精度增加了13.28%。
translated by 谷歌翻译
交叉语言语音适应旨在解决利用多种丰富资源语言来构建低资源目标语言的模型的问题。由于低资源语言具有有限的培训数据,语音识别模型可以容易地过度装备。在本文中,我们建议使用适配器来研究多种适配器的性能,用于参数有效的交叉语音语音适应。基于我们以前的MetaAdapter,隐含地利用适配器,我们提出了一种名为SimAdapter的新算法,用于从Adapters明确学习知识。我们的算法利用了可以轻松集成到变压器结构中的适配器.METAADAPTER利用元学习将一般知识从训练数据转移到测试语言。 SimAdapter旨在使用适配器微调期间了解源语言与目标语言之间的相似性。我们在公共语音数据集中对五种低资源语言进行广泛的实验。结果表明,与强大的全型微调基线相比,我们的MetaAdapter和SimAdapter方法可以将WER减小2.98%和2.55%,只有2.5%和15.5%的培训参数。此外,我们还表明这两种新型算法可以集成,以便更好的性能,相对减少高达3.55%。
translated by 谷歌翻译